from transformers import BertTokenizer

from config.transformers_config import get_model_tokenizer_by_bert

model_path = r"D:\model\google-bert\bert-base-chinese"
tokenizer = BertTokenizer.from_pretrained(model_path)

sent = '眼光'
encoded_sent = tokenizer.batch_encode_plus(
    # text=sent,  # 要处理的句子
    batch_text_or_text_pairs = [sent],
    add_special_tokens=True,  # 添加特殊标记，如句子的起始标记和结束标记
    max_length=256,  # 句子的最大长度为256个标记，超出部分将被截断，不足部分将被填充
    padding='max_length',  # 将句子填充到固定长度（256），不足部分会用0补齐
    return_attention_mask=True,  # 返回注意力掩码，用于标记哪些位置是填充部分，哪些位置是实际的句子内容
    truncation=True  # 如果句子超过了最大长度，进行截断
)
print(encoded_sent)
vocab = tokenizer.get_vocab()
print(vocab)

print('阳' in vocab)